Supervision for metric learning has long been given in the form of equivalence between human-labeled classes. Although this type of supervision has been a basis of metric learning for decades, we argue that it hinders further advances of the field. In this regard, we propose a new regularization method, dubbed HIER, to discover the latent semantic hierarchy of training data, and to deploy the hierarchy to provide richer and more fine-grained supervision than inter-class separability induced by common metric learning losses. HIER achieved this goal with no annotation for the semantic hierarchy but by learning hierarchical proxies in hyperbolic spaces. The hierarchical proxies are learnable parameters, and each of them is trained to serve as an ancestor of a group of data or other proxies to approximate the semantic hierarchy among them. HIER deals with the proxies along with data in hyperbolic space since geometric properties of the space are well-suited to represent their hierarchical structure. The efficacy of HIER was evaluated on four standard benchmarks, where it consistently improved performance of conventional methods when integrated with them, and consequently achieved the best records, surpassing even the existing hyperbolic metric learning technique, in almost all settings.
translated by 谷歌翻译
This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
translated by 谷歌翻译
Cross-modal retrieval across image and text modalities is a challenging task due to its inherent ambiguity: An image often exhibits various situations, and a caption can be coupled with diverse images. Set-based embedding has been studied as a solution to this problem. It seeks to encode a sample into a set of different embedding vectors that capture different semantics of the sample. In this paper, we present a novel set-based embedding method, which is distinct from previous work in two aspects. First, we present a new similarity function called smooth-Chamfer similarity, which is designed to alleviate the side effects of existing similarity functions for set-based embedding. Second, we propose a novel set prediction module to produce a set of embedding vectors that effectively captures diverse semantics of input by the slot attention mechanism. Our method is evaluated on the COCO and Flickr30K datasets across different visual backbones, where it outperforms existing methods including ones that demand substantially larger computation at inference.
translated by 谷歌翻译
我们考虑了主动域适应(ADA)对未标记的目标数据的问题,其中哪个子集被主动选择并给定预算限制标记。受到对域适应性源和目标之间的标签分布不匹配的关键问题的最新分析的启发,我们设计了一种方法,该方法在ADA中首次解决该问题。它的核心是一种新颖的抽样策略,该策略寻求目标数据,以最能近似整个目标分布以及代表性,多样化和不确定。然后,采样目标数据不仅用于监督学习,还用于匹配源和目标域的标签分布,从而导致了显着的性能改善。在四个公共基准测试中,我们的方法在每个适应方案中都大大优于现有方法。
translated by 谷歌翻译
神经网络倾向于在训练数据的主要部分中表现出的类和潜在属性之间的虚假相关性,这破坏了其概括能力。本文提出了一种新的方法,用于培训错误的分类器,没有虚假属性标签。该方法的关键思想是采用分类器委员会作为辅助模块,该模块可以识别偏置冲突的数据,即没有虚假相关性的数据,并在训练主要分类器时向它们分配了很大的权重。该委员会被学到了一个自举的合奏,因此大多数分类器都具有偏见和多样化,并且故意无法相应地预测偏见的偏见。因此,预测难度委员会的共识为识别和加权偏见冲突数据提供了可靠的提示。此外,该委员会还接受了从主要分类器转移的知识的培训,以便它逐渐与主要分类器一起变得偏见,并强调随着培训的进行而更加困难的数据。在五个现实世界数据集中,我们的方法在没有像我们这样的虚假属性标签的现有方法上优于现有方法,甚至偶尔会超越依靠偏见标签的方法。
translated by 谷歌翻译
深度指标学习旨在学习嵌入空间,即使在训练期间他们的类是看不见的,数据之间的距离反映了他们的类等价。然而,培训中可用的有限数量排除了学习嵌入空间的概括。由此激励,我们介绍了一种新的数据增强方法,该方法合成了新颖类及其嵌入向量。我们的方法可以向嵌入式模型提供丰富的语义信息,通过在原始数据中使用新类别增强培训数据来提高其泛化。我们通过学习和利用条件生成模型来实现这个想法,其中,给定类标签和噪声,产生类的随机嵌入向量。我们所提出的发电机允许损失通过增强现实和多样的类来使用更丰富的级关系,从而更好地推广了看不见的样本。公共基准数据集上的实验结果表明,我们的方法明确提高了基于代理的损失的性能。
translated by 谷歌翻译
接地的情况识别(GSR)是不仅对突出的动作(动词)进行分类的任务,还可以预测与给定图像中的语义角色及其位置相关的实体(名词)。灵感来自变压器在视觉任务中的显着成功,我们提出了一种基于变压器编码器 - 解码器架构的GSR模型。我们模型的注意机制通过有效捕获图像的高电平语义特征来实现精确的动词分类,并允许模型灵活地处理实体之间的复杂和图像相关关系,以改进的名词分类和本地化。我们的模型是GSR的第一个变压器架构,并在SWIG基准测试的每一个评估度量中实现了最先进的。我们的代码可在https://github.com/jhcho99/gsrtr中获得。
translated by 谷歌翻译
卷积是现代神经网络最重要的特征变革,导致深度学习的进步。最近的变压器网络的出现,取代具有自我关注块的卷积层,揭示了静止卷积粒的限制,并将门打开到动态特征变换的时代。然而,现有的动态变换包括自我关注,全部限制了视频理解,其中空间和时间的对应关系,即运动信息,对于有效表示至关重要。在这项工作中,我们引入了一个关系功能转换,称为关系自我关注(RSA),通过动态生成关系内核和聚合关系上下文来利用视频中丰富的时空关系结构。我们的实验和消融研究表明,RSA网络基本上表现出卷积和自我关注的同行,在标准的运动中心基准上实现了用于视频动作识别的标准主导的基准,例如用于V1&V2,潜水48和Filegym。
translated by 谷歌翻译
在实际应用中,高度要求进行语义细分的域概括,在这种应用中,训练有素的模型预计在以前看不见的域中可以很好地工作。一个挑战在于缺乏数据可能涵盖可能看不见的培训领域的各种分布的数据。在本文中,我们提出了一个Web图像辅助域的概括(Wedge)方案,该方案是第一个利用Web爬行图像多样性进行概括的语义细分。为了探索和利用现实世界的数据分布,我们收集了一个网络爬行的数据集,该数据集在天气条件,站点,照明,相机样式等方面呈现出较大的多样性。我们还提出了一种注入Web样式表示的方法 - 将数据编进培训期间的源域中,这使网络能够以可靠的标签体验各种样式的图像,以进行有效的培训。此外,我们使用带有预测的伪标签的Web爬行数据集进行培训,以进一步增强网络的功能。广泛的实验表明,我们的方法显然优于现有的域泛化技术。
translated by 谷歌翻译
时空卷积通常无法学习视频中的运动动态,因此在野外的视频理解需要有效的运动表示。在本文中,我们提出了一种基于时空自相似性(STS)的丰富和强大的运动表示。给定一系列帧,STS表示每个局部区域作为空间和时间的邻居的相似度。通过将外观特征转换为关系值,它使学习者能够更好地识别空间和时间的结构模式。我们利用了整个STS,让我们的模型学会从中提取有效的运动表示。建议的神经块被称为自拍,可以轻松插入神经架构中,并在没有额外监督的情况下训练结束。在空间和时间内具有足够的邻域,它有效地捕获视频中的长期交互和快速运动,导致强大的动作识别。我们的实验分析证明了其对运动建模方法的优越性以及与直接卷积的时空特征的互补性。在标准动作识别基准测试中,某事-V1&V2,潜水-48和FineGym,该方法实现了最先进的结果。
translated by 谷歌翻译